描述性统计
1> sum()
返回请求轴的总和
dict_str = {'Name':pd.Series(['meng', 'cai', 'zhang', 'wang']),'Age':pd.Series([20, 21, 22, 25])}
df = pd.DataFrame(dict_str)
print(f'求和:\n{df.sum()}') # df.sum(0)
# 输出结果:
# 求和:
# Name mengcaizhangwang
# Age 88
# dtype: object
# 对列 1 求和
print(f'数据中的行轴求和:\n{df.sum(1)}')
# 输出结果:
# 数据中的行轴求和:
# 0 20
# 1 21
# 2 22
# 3 25
# dtype: int64
2> mean()
返回平均值
dict_str = {'Name':pd.Series(['meng', 'cai', 'zhang', 'wang']),'Age':pd.Series([20, 21, 22, 25])}
df = pd.DataFrame(dict_str)
print(f'平均值:\n{df.mean()}')
# 输出结果:
# 平均值:
# Age 22.0
# dtype: float64
3> std()
标准偏差
dict_str = {'Name':pd.Series(['meng', 'cai', 'zhang', 'wang']),'Age':pd.Series([20, 21, 22, 25])}
df = pd.DataFrame(dict_str)
print(f'标准偏差:\n{df.std()}')
# 输出结果:
# 标准偏差:
# Age 2.160247
# dtype: float64
4> describe()
统计信息的摘要
| 参数 | 说明 |
|---|---|
| include | object : 汇总字符串列 number : 汇总数据列 all : 将所有列汇总在一起 |
dict_str = {'Name':pd.Series(['meng', 'cai', 'zhang', 'wang']),'Age':pd.Series([20, 21, 22, 25])}
df = pd.DataFrame(dict_str)
print(f'汇总数据:\n{df.describe()}')
# 输出结果:
# 汇总数据:
# Age
# count 4.000000
# # mean 22.000000
# std 2.160247
# min 20.000000
# # 25% 20.750000
# 50% 21.500000
# 75% 22.750000
# max 25.000000
dict_str = {'Name':pd.Series(['meng', 'cai', 'zhang', 'wang']),'Age':pd.Series([20, 21, 22, 25])}
df = pd.DataFrame(dict_str)
print(f'汇总数据:\n{df.describe(include = "object")}')
# 输出结果:
# 汇总数据:
# Name
# count 4
# unique 4
# top meng
# freq 1
5> 累计统计函数
| 函数 | 作用 |
|---|---|
cumsum |
计算前1/2/3/…/n个数的和 |
cummax |
计算前1/2/3/…/n个数的最大值 |
cummin |
计算前1/2/3/…/n个数的最小值 |
cumprod |
计算前1/2/3/…/n个数的积 |
stock_rise = data['p_change']
# plot方法集成了前面直方图、条形图、饼图、折线图
stock_rise.cumsum()
# 输出结果:
# 2015-03-02 2.62
# 2015-03-03 4.06
# 2015-03-04 5.63
# 2015-03-05 7.65
# 2015-03-06 16.16